第1章 音声認識とは?
第1節
音声信号から発話内容を認識する技術のことを、音声認識技術と呼びます。(p.10)
It(speech recognition) is also known as automatic speech recognition (ASR), computer speech recognition or speech to text (STT).
AIスピーカーの内部の例
音源分離(雑音除去)
音声認識
自然言語処理
組み合わされるものなのだろうか?
疑問:音声認識から直接応答だと、人によって音声データが違う(高低など)からうまくいかない?
応答
第2節
音声認識の処理(p.12 図1-3)
特徴量抽出
人間の知覚に相当(耳によって音を知覚)
フーリエ変換など
音声認識モデル
人間の認識に相当(知覚された信号が脳に届く)
機械学習で「入力音声から各認識結果候補の確率を計算するための計算規則」
英語聞き取りの例
内部処理は3つ
音響モデル
音を聞いて音素ごとの確率を計算
隠れマルコフモデルと混合正規分布(1980s〜2010)
混合正規分布がディープニューラルネットワークに置き換わる
発音辞書
音素列と単語の対応
言語モデル
文脈的に単語が現れやすい
2015〜 3つを一つのニューラルネットワークで表現するEnd-to-Endモデル